arxiv：2503.00060v1 [cs.cv] 2025年2月27日__

arxiv：2503.00060v1 [cs.cv] 2025年2月27日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2503.00060v1 [cs.cv] 2025年2月27日

¥ 1.0

热度

视觉变压器（VIT）在全球建模中脱颖而出，但由于其注意力机制的二次计算复杂性，在资源受限设备上面临部署挑战。为了解决这个问题，我们提出了语义意识的聚类视觉变压器（SAC-VIT），这是一种非著作范围，以提高VIT的计算效率。SAC-VIT分为两个阶段：早期出口（EE）和语义意识聚类（SAC）。在EE阶段，处理下采样的输入信息以提取全局语义信息并生成初始推理结果。如果这些结果不符合EE终止标准，则将这些信息聚集到目标和非目标令牌中。在SAC阶段，目标令牌被映射回原始图像，裁剪和嵌入。然后将这些目标令牌与从EE阶段重复使用的非目标令牌结合使用，并在每个集群中应用注意力机制。具有端到端优化的两阶段设计，可降低空间冗余，并实现计算效率，从而显着提高所有VIT性能。广泛的实验证明了SAC-VIT的功效，减少了DEIT的62％，并实现了1.98倍的吞吐量，而无需损害。

添加pdf代下载 VIP点击下载文件